We present a method that accelerates reconstruction of 3D scenes and objects, aiming to enable instant reconstruction on edge devices such as mobile phones and AR/VR headsets. While recent works have accelerated scene reconstruction training to minute/second-level on high-end GPUs, there is still a large gap to the goal of instant training on edge devices which is yet highly desired in many emerging applications such as immersive AR/VR. To this end, this work aims to further accelerate training by leveraging geometry priors of the target scene. Our method proposes strategies to alleviate the noise of the imperfect geometry priors to accelerate the training speed on top of the highly optimized Instant-NGP. On the NeRF Synthetic dataset, our work uses half of the training iterations to reach an average test PSNR of >30.
translated by 谷歌翻译
This paper is a technical overview of DeepMind and Google's recent work on reinforcement learning for controlling commercial cooling systems. Building on expertise that began with cooling Google's data centers more efficiently, we recently conducted live experiments on two real-world facilities in partnership with Trane Technologies, a building management system provider. These live experiments had a variety of challenges in areas such as evaluation, learning from offline data, and constraint satisfaction. Our paper describes these challenges in the hope that awareness of them will benefit future applied RL work. We also describe the way we adapted our RL system to deal with these challenges, resulting in energy savings of approximately 9% and 13% respectively at the two live experiment sites.
translated by 谷歌翻译
数学推理是人类智力的核心能力,在抽象思维和逻辑推理中对机器提出了独特的挑战。最近的大型预训练的语言模型(例如GPT-3)在以文本形式(例如数学单词问题(MWP))编写的数学推理任务上取得了显着的进步。但是,未知模型是否可以处理更复杂的问题,这些问题涉及数学推理,例如表格数据。为了填补空白,我们提出了表格数学单词问题(TABMWP),这是一个包含38,431个开放域级等级问题的新数据集,这些问题需要在文本和表格数据上进行数学推理。 TABMWP中的每个问题都与表格上下文对齐,该上下文作为图像,半结构化文本和结构化表。有两种类型的问题:自由文本和多选择,每个问题都用金解决方案注释以揭示多步推理过程。我们在TABMWP上评估了不同的预训练模型,包括在几次设置中的GPT-3模型。正如先前的研究所表明的那样,由于很少有GPT-3依赖于内在的示例的选择,因此其性能是不稳定的,并且可能会降解为几乎机会。处理TABMWP等复杂问题时,不稳定的问题更为严重。为了减轻这种情况,我们进一步提出了一种新颖的方法,即PresspG,该方法利用策略梯度学习从少量培训数据中选择中文示例,然后为测试示例构造相应的提示。实验结果表明,与随机选择相比,我们的方法在准确性度量上优于最佳基线,并显着降低了预测方差,这验证了其在选择性上下文示例中的有效性。
translated by 谷歌翻译
人类活动识别(HAR)是使用有效的机器学习(ML)方法将传感器数据解释为人类运动的问题。 HAR系统依靠来自不受信任的用户的数据,使他们容易受到数据中毒攻击的影响。在中毒攻击中,攻击者操纵传感器读数以污染训练集,从而误导了har以产生错误的结果。本文介绍了针对HAR系统的标签翻转数据中毒攻击的设计,在数据收集阶段,传感器读数的标签发生了恶意更改。由于传感环境中的噪音和不确定性,这种攻击对识别系统构成了严重威胁。此外,当将活动识别模型部署在安全至关重要的应用中时,标记翻转攻击的脆弱性是危险的。本文阐明了如何通过基于智能手机的传感器数据收集应用程序在实践中进行攻击。据我们所知,这是一项较早的研究工作,它通过标签翻转中毒探索了攻击HAR模型。我们实施了提出的攻击并根据以下机器学习算法进行活动识别模型进行测试:多层感知器,决策树,随机森林和XGBoost。最后,我们评估了针对拟议攻击的基于K-Nearest邻居(KNN)的防御机制的有效性。
translated by 谷歌翻译
机器学习(ML)研究通常集中在模型上,而最突出的数据集已用于日常的ML任务,而不考虑这些数据集对基本问题的广度,困难和忠诚。忽略数据集的基本重要性已引起了重大问题,该问题涉及现实世界中的数据级联以及数据集驱动标准的模型质量饱和,并阻碍了研究的增长。为了解决此问题,我们提出Dataperf,这是用于评估ML数据集和数据集工作算法的基准软件包。我们打算启用“数据棘轮”,其中培训集将有助于评估相同问题的测试集,反之亦然。这种反馈驱动的策略将产生一个良性的循环,该循环将加速以数据为中心的AI。MLCommons协会将维护Dataperf。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
为了使AI安全地在医院,学校和工作场所等现实世界中安全部署,它必须能够坚定地理解物理世界。这种推理的基础是物理常识:了解可用对象的物理特性和提供的能力,如何被操纵以及它们如何与其他对象进行交互。物理常识性推理从根本上是一项多感官任务,因为物理特性是通过多种模式表现出来的,其中两个是视觉和声学。我们的论文通过贡献PACS来朝着现实世界中的物理常识推理:第一个用于物理常识属性注释的视听基准。 PACS包含13,400对答案对,涉及1,377个独特的物理常识性问题和1,526个视频。我们的数据集提供了新的机会来通过将音频作为此多模式问题的核心组成部分来推进物理推理的研究领域。使用PACS,我们在我们的新挑战性任务上评估了多种最先进的模型。尽管某些模型显示出令人鼓舞的结果(精度为70%),但它们都没有人类的绩效(精度为95%)。我们通过证明多模式推理的重要性并为未来的研究提供了可能的途径来结束本文。
translated by 谷歌翻译
机器人辅助手术期间机器人工具的基于视觉的分割可以使下游应用,例如增强现实反馈,同时允许机器人运动学的不准确性。随着深度学习的引入,提出了许多直接和仅从图像中求解仪器分割的方法。尽管这些方法在基准数据集上取得了显着的进展,但与其鲁棒性有关的基本挑战仍然存在。我们提出了CARTS,这是一种因果关系驱动的机器人工具分割算法,它是基于机器人工具分割任务的互补因果模型而设计的。 CART没有直接从观察到的图像中直接推断分段掩码,而是通过向前的运动学和可区分渲染来更新最初错误的机器人运动学参数,将工具模型与图像观测值对齐,以优化图像特征特征相似性端到端。我们基准在精确控制场景中生成的DVRK的合成和真实数据基准了竞争技术,以允许反事实合成。在训练域测试数据上,卡车在对反事实更改的测试数据上进行测试时,骰子得分为93.4(骰子得分为91.8),表现出低亮度,烟雾,血液和背景模式改变。这比基于SOTA图像的方法的骰子得分分别与95.0和86.7的骰子分数进行了比较。未来的工作将涉及加速推车以实现视频帧速率,并估计闭塞在实践中的影响。尽管存在这些局限性,但我们的结果还是很有希望的:除了达到高分割精度外,购物车还提供了真正的机器人运动学的估计,这可能会受益于诸如力估计等应用。代码可在以下网址找到:https://github.com/hding2455/carts
translated by 谷歌翻译
将回归系数融合到均匀组中可以揭示在每个组内共享共同值的系数。这种扩展均匀性降低了参数空间的内在尺寸,并释放统计学精度。我们提出并调查了一个名为$ l_0 $ -fusion的新的组合分组方法,这些方法可用于混合整数优化(MIO)。在统计方面,我们识别称为分组灵敏度的基本量,该基本量为恢复真实组的难度。我们展示$ l_0 $ -fusion在分组灵敏度的最弱需求下实现了分组一致性:如果违反了这一要求,则小组拼写的最低风险将无法收敛到零。此外,我们展示了在高维制度中,可以使用无需任何必要的统计效率损失的确保筛选特征,同时降低计算成本的校正特征耦合耦合的$ L_0 $ -Fusion。在算法方面,我们为$ l_0 $ -fusion提供了一个mio配方,以及温暖的开始策略。仿真和实际数据分析表明,在分组准确性方面,$ L_0 $ -FUSUS展示其竞争对手的优势。
translated by 谷歌翻译
深度立体声匹配近年来取得了重大进展。然而,最先进的方法基于昂贵的4D成本体积,这限制了它们在现实世界中的应用。要解决此问题,已经提出了3D相关映射和迭代差异更新。关于在现实世界平台中,如自动驾驶汽车和机器人,通常安装LIDAR。因此,我们进一步将稀疏的LIDAR点引入了迭代更新,这减轻了网络更新从零状态的差异的负担。此外,我们提出以自我监督的方式培训网络,以便可以在任何捕获的数据上培训,以获得更好的泛化能力。实验和比较表明,呈现的方法是有效的,并通过相关方法实现了可比的结果。
translated by 谷歌翻译